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(57) Abstract: The invention relates to the configurable architecture of a calculation device comprising at least one individual con- 
figurable and/or reconfigurable switching device, whereby the output variables thereof form a time point t n _! and the input variables 
of the switching device form a time point t n . Means are provided in order to control the output variables in a clocked manner and to 
store the output variables of the switching device between the time points t n _! and t n . 
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(57) Zusammenfassung: Die konfigurierbare Architektur einer Rechnereinrichtung weist wenigstens ein einzeln konfigurierbares 
und/oder rekonfigurierbares Schaltwerk auf, dessen Ausgangsvariablen zu einem Zeitpunkt t n _! die Eingangsvariablen des Schalt- 
werks zu einem Zeitpunkt t n bilden. Es sind Mittel zu einem taktge- steuerten Speichern der Ausgangsvariablen des Schaltwerks 
zwischen den Zeitpunkten t n _! und t n vorgesehen. 
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Beschreibung 

REKONFIGURIERBARES SCHALTWERK ZUR PARALLELEN BERECHUNG BELIEBIGER ALGORITHM EN 

5 

1 Einleitung 

Die vorliegende Erfindung bezieht sich auf eine Architektur 
einer Rechnereinrichtung zur parallelen Berechnung von Algo- 
10 rithmen mit wenigstens einem Schaltwerk. 

2 Stand der Technik 

2.1 Bekannte Rechnermodelle 

15 

Allgemein wird die sogenannte , Von-Neumann-Architektur y , wie 
sie aus der prinzipiellen Darstellung der Figur 1 hervorgeht, 
als Universalrechnereinrichtung angesehen. Darunter ist zu 
verstehen, dass mithilfe eines Rechners, auf dieser Architek- 

20 tur mit den Komponenten Central Processing Unit [CPU, darin 
enthalten Control Unit (CU) und Arithmetical-Logical Unit 
(ALU) ] i Memory (Speicher) , Input/Output (Ein-/Ausgabe) und 
Bussystem basierend, alle algorithmierbaren Probleme prinzi- 
piell berechnet werden konnen. Die Einstellung eines solchen 

25 Rechners auf das jeweilige Problem erfolgt durch ein Pro- 
gramm, d.h. f eine textuelle Beschreibung des Algorithmus z.B. 
in den Programmiersprachen C, C++ Oder Java* Dieses Programm 
wird durch einen Ubersetzer (Compiler) , selbst ein Programm 
darstellend, in ein Maschinen-lesbares Programm ubersetzt. 

30 

Die Programmbearbeitung erfolgt in den Rechner, die auf der 
Von-Neumann-Architektur nach Figur 1 und ahnlichen Architek- 
turen (z.B. einer Harvard- oder modif izierten Harvard- 
Architektur) basieren, prinzipiell auf sequenzielle Weise. 
35 Dies ist so zu verstehen, dass der Algorithmus , bestehend aus 
einer Menge von Maschinen-Instruktionen, dadurch bearbeitet 
wird, dass die erste Instruktion bekannt ist. Die einem Be- 



1 



WO 2005/078599 



PCT/EP2005/050500 



fehl nachf olgende Instruktion ist entweder die im Speicher an 
der nachsten Adresse stehende (normaler Programmf luss) , oder 
die letzte ausgefuhrte Instruktion war ein Sprungbef ehl, der 
den aktuellen Programmstand an eine andere Stelle versetzt . 
5 Das interne Register, das den aktuellen Programmstand spei- 
chert, wird mit , Program Counter' (PC) bezeichnet . 

Dieses Prinzip der sequenziellen Bearbeitung bedeutet, dass 
sich zu einem Zeitpunkt genau eine Instruktion in der Bear- 

10 beitung befindet. Es wird als Von-Neumann-Prinzip bezeichnet. 
Moderne Architekturen, die als RISC (Reduced Instruction-Set 
Computing) , superskalar oder VLIW (Very Long Instruction 
Word) bezeichnet werden, fuhren zwar zu einem Zeitpunkt mehr 
als eine Instruktion aus; das Prinzip der Sequenzialitat 

15 bleibt jedoch erhalten. Insgesamt wird dieses Ausfuhrungs- 
prinzip als ' zeit-sequenziell' (Computing in Time) bezeich- 
net, was andeutet, dass der Algorithmus Zeit benotigt. 

Ein ganzlich anderes Prinzip der Programmbearbeitung ist in 
20 programmierbaren Logikbausteinen [PLDs (Programmable Logic De- 
vices), entsprechend Figur 2] bzw. deren bekanntester Imple- 
ment ierung, den FPGAs (Field-Programmable Gate Arrays) , vor- 
gesehen. Auch diese Architektur ist universell, d.h. fur je- 
des algorithmierbare Problem einsetzbar. Die Programmierung 
25 erfolgt hierbei so, dass elementare Recheneinheiten, meist 

auf Bit-Ebene definiert und daher als Logikelemente bezeich- 
net, in einem Netzwerk verschaltet werden. Diese Form der 
Programmierung wird meist als , Konf iguration 1 bezeichnet. 

30 Die Programmbearbeitung in einem PLD erfolgt im Unterschied 
zum Von-Neumann-Prinzip mit maximaler Parallelitat . Die ge- 
samte Konf iguration eines Bausteins kann als eine einzige In- 
struktion - im Gegensatz zum Von-Neumann-Prinzip allerdings 
nicht fest definiert, sondern zusammengeset zt - aufgefasst 

35 werden, die in einem Zyklus komplett bearbeitet wird. Die 

Zykluszeit, haufig mit einem externen Takt in Verbindung ge- 
bracht, ist dann von der Komplexitat der Zusammenset zung ab- 
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hangig. Hierdurch kommt ein im Vergleich zu Prozessoren nied- 
rigerer Takt zum Einsatz, der aber durch die Parallelitat der 
Ausfuhrung mehr als ausgeglichen wird. Dieses Prinzip der 
Ausfuhrung wird als , Computing in Space 1 * bezeichnet . 

5 

2.2 Deterministische endliche Automaten 

Eines der wesentlichen Modelle zur Algorithmierung von Prob- 
10 lemen sind deterministische endliche Automaten [DEAs, auch 
DFAs (deterministic finite automata) ] . Diese werden in der 
Technik auch als , Finite State Machines ' (FSMs gemaB der 
prinzipiellen Darstellung nach Figur 3) bezeichnet. Dieses 
Modell betrachtet das Problem als eine Folge von Zustanden 
15 mit definierten Ubergangsf unktionen (Next State Decoder) zwi- 
schen diesen, abhangig von den Eingangswerten, Obwohl das Mo- 
dell des DEA theoretisch nicht so machtig ist wie das des 
Von-Neumann-Modells, konnen in der Praxis beliebige Probleme, 
ggf . mit Zusatz im Modell, gelost werden. 

20 

Das groflte Problem dieser DEAs besteht darin, dass ihre Funk- 
tionen mit der Anzahl der Zustande in exponentieller Weise 
anwachsen, den Flachenbedarf an Halbleitermaterial (insbeson- 
dere Silizium) betreffend. Aus diesem Grund wahlt man gerne 
25 Modelle, die aus vielen, miteinander kommunizierenden Automa- 
ten bestehen. Ein derartiges Rechnermodell wird als , komple- 
xer, kooperierender Automat' bezeichnet. 

2.3 Darstellung Boolescher Funktionen 

30 

Eine Boolesche Funktion oder Schaltfunktion ist eine Abbil- 
dung f: B m B n , mit B={0,1}, die in der Form f = 
(f L , f 2f ...f n )^ also als Vektor von Funktionen f k : B m B 
dargestellt werden kann. Im Folgenden wird daher nur von 
35 Funktionen f k mit einem Ausgangswert ausgegangen; diese wer- 
den allgemein als f bezeichnet. 
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Es ist weiterhin bekannt, dass f in Form einer dis junktiven 
Oder kon junktiven Normalform darstellbar ist. Fur die dis- 
junktive Normalform bedeutet dies, dass 

f = zl + z2 ... + zk, mit k = 1, 2, . . . , 2m und als OR- 

5 Operator (logisches ODER) (1) 
und 

zi = yl * y2 * ... yn mit i = 1, 2, k mit '*' als AND- 

Operator (logisches UND) (2) 
gilt. Es werden naturlich nur solche zi verwendet, fur die 

10 die zu beschreibende Funktion den Wert TRUE Oder '1' erhalt ♦ 
Die Bezeichnung yj bestimmt dabei, wie ein Inputbit i k aus 
dem Inputvektor x = (ii, i 2 / -ik) werden soil. Wahrend fur die 
Inputbit s nur Werte aus der Menge {0, 1} zugelassen sind, 
muss dies fur yj geandert werden: Diesen Werten wird eines 

15 aus den drei Attributen {0, 1, -} zugewiesen. Das Attribut 

'1' fur yj bedeutet dabei, dass i k unverandert genommen wird, 
'0' bedeutet, dass i k invertiert gewahlt werden muss (notiert 
als /ik) r und steht fur don't care; d.h., i k wird nicht 

verwendet. Werden fur yj nur die Werte {0, 1} als Attribute 

20 verwendet, spricht man von der ,kanonisch dis junktiven Nor- 
malform' • 

Diese Darstellung ist deswegen bedeutend, well dadurch bei 
bekannter Reihenfolge der Inputbits die Teilausdrucke zi ge- 
25 maB vorstehender Gleichung (2), auch als , Terme 1 bezeichnet, 
als sogenannte , Stringterme * darstellbar sind: Bei einer Rei- 
henfolge il, i2, i3 bedeutet "111", dass zl = il * i2 * 13 
ist, "0-1" steht fur z2 = /il * i3 usw. 

30 Bei drei Inputbits ist die Menge aller moglichen Inputvekto- 
ren v = {000,001,010,011,100,101,110,111}. Falls beispielhaft 
die Funktion f nur an den Eingangsvektor {001,011,111} den 
Wert TRUE erhalt, brauchen oder durfen auch nur diese angege- 
ben werden; in Form von Stringterms kann dies durch 111 und 

35 0-1 erfolgen, dies charakterisiert vollstandig die gegebene 
Funktion und ist isomorph zur dis junktiven Normalform 
f = /il * 13 + il * i2 * 13 
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2.4 Content -Addressable Memory (CAM) 

Lese-/Schreib-Speicherelemente [RAM (Random Addressable 
5 Read/Write Memory) ] werden ublicherweise zur Speicherung von 
Daten und Programmen genutzt. In diesem Fall liegt eine Ad- 
resse an dem Adressbus an, und nach Ablauf einer Baustein- 
spezif ischen Wartezeit ist beim Lesevorgang das gespeicherte 
Datum am Datenbus anliegend und kann welter verwendet werden. 
10 Der Schreibvorgang ist in entsprechender Weise arbeitend. 

Aus Sicht der Instanz, die die Daten erhalten mochte (z.B. 
ein Prozessor) , ist die Adresse bekannt, und der gespeicherte 
Inhalt ist vorher unbekannt . Es existieren jedoch Anwendun- 

15 gen, bei der das Verhaltnis genau umgekehrt ist: Der gespei- 
cherte Inhalt ist bekannt, und das Interesse ist, an welcher 
Adresse dieser Inhalt gespeichert ist, wobei die Antwort auch 
'nicht vorhanden' sein kann. Speicherelemente, die diese Art 
der Abfrage unterstutzen, werden als , Content-Addressable Me- 

20 mories A [CAMs ( Inhalt s-adressierbare Speicherelemente)] be- 
zeichnet . 

Speicherelemente, die als CAM bezeichnet werden und dieses 
Verhalten direkt unterstutzen, gelten als spezielle Bausteine 

25 und sind keineswegs haufig anzufinden. Fur praktische Anwen- 
dungen kann man jedoch die Funktionalitat des CAM durch ubli- 
che RAM-Bausteine emulieren. Hierzu mussen fur alle Daten, 
die im CAM direkt gespeichert werden wurden, bei einer Abfra- 
ge jedoch nicht der Wert, sondern die Speicheradresse erge- 

30 ben, die korrespondierenden Adressen vorher berechnet werden 
und an der RAM-Adresse, die dem Datum entspricht, gespeichert 
werden . 

2.5 Zellulare Automaten 

35 

Zellulare Automaten [CAs (cellular automata) ] sind eine Menge 
von endliche Automaten, die in einem Feld mit f eststehender 
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Topologie angeordnet sind und weitere Eigenschaf ten besitzen 
(vgl. Literaturzitate [1] und [4]). Diese Menge von FSMs ist 
als n-dimensionales Array (meist gilt n = 2) angeordnet, wo- 
bei jedem Platz feste Koordinaten gegeben sind. Jede FSM be- 
5 sitzt eindeutig Nachbarn, mit denen kommuniziert werden kann. 
Im Fall n = 2 werden meist die 4 umliegenden FSMs (in den 
' Himmelsrichtungen' N, E, W, S, daher auch als , NEWS- 
Nachbarschaft ' bezeichnet) als Nachbarn angesehen. 

10 Die Kommunikation mit den Nachbarn erfolgt so, dass die Zu- 
stande der direkten Nachbarn lesbar und damit auswertbar 
sind. Mit jedem Zeitschritt wird der Zustand aller Zellen pa- 
rallel berechnet . Sollen Daten aus weiter entfernten Zellen 
fur die Berechnung eines neuen Zustandes genutzt werden, so 

15 mussen diese Daten schrittweise von Zelle zu Zelle transpor- 
tiert werden. Damit sind klassische zellulare Automaten gut 
zur Berechnung von Problemstellungen mit hoher Lokalitat der 
Daten geeignet . 

20 CAs gelten als universelle Rechner wie die vorher diskutier- 
ten Architekturen; sie ..arbeiten zudem vollkommen parallel. 
Soil ein Netz von CAs in eine Hardwareschaltung, z.B. einen 
ASIC Oder auch PLD, abgebildet werden, so steigt die Anzahl 
der Verbindungen linear mit der Zahl der Automaten an. Die 

25 Verbindungen selbst sind je nach gewahlter Topologie nur re- 
lativ kurz und fest verlegt . Der Aufwand zur Kommunikation 
der CAs untereinander ist also relativ gering. Wird als Kom- 
plexitat einer Schalt f unktion der Speicherbedarf angesehen, 
der notig ist, diese Schalt f unktion in ein RAM abzubilden, so 

3 0 steigt die maximale Komplexitat der dem Verhalten einer Zelle 
entsprechenden Schaltf unktion exponentiell mit der Anzahl der 
Eingangsvariablen und linear mit der Anzahl der Ausgangsvari- 
ablen der Funktion an. Die Zahl der Eingangsvariablen ist 
hier die Summe aller Bits, die notig sind, die Zustande aller 

35 mit der Zelle verbundenen CAs einschliefilich des Zustandes 

der Zelle selbst zu codieren. Damit ist die maximale Komple- 
xitat der Zelle im Wesentlichen durch die Anzahl der Verbin- 
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dungen eines jeden Automaten beschrankt . 

Das Konzept der globalen zellularen Automaten [GCAs (global 
cellular automata)] uberwindet die Einschrankungen der CAs, 
5 indem Verbindungen einer Zelle nicht nur zu ihren nachsten 
Nachbarn, sondern zu beliebigen Zellen im gesamten Feld er- 
laubt werden. Damit besitzt ein GCA keine feststehende Topo- 
logie mehr sondern ermoglicht, eine an die Problemstellung 
angepasste und gegebenenf alls zur Laufzeit der Berechnung so- 

10 gar wechselnde Topologie zu verwenden. Dies kann zu einer er- 
heblichen Beschleunigung in der Programmbearbeitung fuhren. 
Die Anzahl der Verbindungen eines einzelnen Automaten ist ge- 
gebenenf alls durch eine obere Grenze festgelegt. Ist nur eine 
einzelne Verbindung erlaubt, so spricht man von einarmigen-, 

15 im allgemeinen Fall von ic-armigen GCAs. 

Als Konsequenz steigt bei der Realisierung eines Feldes von 
GCAs der erf orderliche Aufwand fur die Kommunikation der Zel- 
len untereinander mit der Zahl der Zellen stark an. Die An- 
20 zahl der moglichen Verbindungen zwischen den einzelnen Auto- 
maten steigt quadratisch mit deren Anzahl. 

Die Komplexitat der einzelnen Automaten selbst bzw. der 
zugrunde liegenden Schaltf unktion hangt wie bei den konventi- 
25 onellen CAs im Wesentlichen von der Anzahl der Verbindungen 
einer jeden Zelle ab. Soil ein GCA in eine rekonf igurierbare 
Schaltung (PLD) abgebildet werden, so muss jede einzelne Zel- 
le, die ja beliebige Schaltf unktionen realisieren kann, die 
maximal mogliche Komplexitat ermoglichen. 

30 

Werden die einzelnen Automaten auf jeweils ein Rechenwerk mit 
lokalem Speicher abgebildet, so kann jede Zelle auch komplexe 
Schaltfunktionen realisieren. Der Aufwand fur eine beliebige 
Kommunikation alle Zellen steigt quadratisch mit der Anzahl 
35 der Zellen. Die Granularitat der Schaltung wird dann bestimmt 
durch die Anzahl der Zellen bzw. die Bitbreite der Verbindun- 
gen zwischen den Zellen. Eine solche Schaltung kann sehr gut 
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GCAs realisieren, die in Anzahl cier FSMs und Bitbreite den 
Vorgaben der Schaltung entsprechen. Es konnen auch komplexe 
Schalt f unktionen in jeder einzelnen Zelle realisiert werden. 
Nachteilig wirkt sich jedoch aus, dass GCAs, die in Anzahl 
5 und benotigter Bitbreite der Verbindungen nicht mit der vor- 
gegebenen Kdrnigkeit ubereinstimmen, nur schwierig auf die 
Schaltung abgebildet werden konnen. 

Werden die einzelnen Zellen als Schaltnetz ausgefiihrt, so 
10 muss jede Zelle in der Lage sein, Daten von alien anderen 
Zellen einschlieftlich des eigenen Zustands zu verarbeiten. 
Aus diesem Grund muss jedes Schaltnetz Schalt f unktionen rea- 
lisieren konnen, die alle binarcodierten Zustande aller Zel- 
len als Eingabevariablen enthalten konnen. Die Anzahl der 
15 Ausgabevariablen der Schalt funktion muss es lediglich ermog- 
lichen, alle Zustande einer einzelnen Zelle binar zu codie- 
ren. Nachteilig ist hier, dass die Komplexitat der Schalt- 
funktion exponentiell mit der Anzahl der Eingabevariablen an- 
steigt . Ebenfalls nachteilig ist der polynomial ansteigende 
20 Auf wand fur die Kommunikat ion der Zellen untereinander . 

Eine (re-) konf igurierbare Architektur (PLD) , die zur Aufnahme 
eines GCA geeignet ist, muss also pro FSM eine beliebige Kom- 
plexitat aufnehmen konnen. Dies bedeutet, dass - falls die 

25 FSMs direkt in eine Zelle des PLDs abgebildet werden sollen - 
die Zellen jede beliebige Funktion aufnehmen mussen. Es ist 
bekannt, dass sich hieraus ein exponentielles Wachstum der 
ZellengroJfte ergibt. Das konf igurierbare Netzwerk in dem PLD 
muss zudem vollstandig ausgefuhrt sein, d.h., jeder Zellen- 

30 ausgang muss mit jeder anderen Zelle verbindbar sein. Das 

Netzwerk wachst damit quadratisch an, die Konf iguration des 
Netzwerks ebenfalls . 

Derzeit sind keine PLD-Architekturen am Markt Oder bekannt, 
35 die beide Forderungen erfullen: Grofie Zellen mit einem voll- 
standigen Designraum existieren nicht, es gibt nur kleine 
Zellen mit vollstandigem Designraum [sogenannte , Look-Up- 
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Table-Struktur * (LUT) ] oder groBe Zellen mit unvollstandigen 
Moglichkeiten zur Abbildung beliebiger Funktionen. Eine voll- 
standige Verbindbarkeit aller Zellen ist nur bei groBen Zel- 
len moglich. Die Abbildung von GCAs auf exist ierende PLDs ist 
5 damit schwierig, vielfach sogar unmoglich. 

3 Auf gabenstellung 

Aufgabe der vorliegenden Erfindung ist es, die in der Einlei- 
10 tung 1 angegebene Architektur dahingehend auszugestalten, 

dass die vorgenannten Probleme zumindest gemindert sind. Da- 
bei soli insbesondere die Moglichkeit aufgezeigt werden, die 
als ausgezeichnetes Modell zu erachtenden CGAs, die die im 
Algorithmus steckende Parallelitat tatsachlich nutzen konnen, 
15 auf eine programmierbare Hardware wie ein PLD abbilden zu 

konnen. D.h., es soil eine PLD-Architektur angegeben werden, 
die eine Aufnahme eines beliebigen CGA ermoglicht . 

4 Losungsansatz 

20 

Die genannte Aufgabe wird erf indungsgemaB mit den in Anspruch 
1 angegebenen MaBnahmen gelost. DemgemaB soil die Architektur 
mit den eingangs genannten Merkmalen wenigstens ein einzeln 
konf igurierbares und/oder rekonf igurierbares Schaltwerk um- 

25 fassen, das eine Stufe mit Eingangen und eine Stufe mit Aus- 
gangen aufweist, wobei Ausgangsvariable zumindest einiger der 
Ausgange zu einem Zeitpunkt t n _i die Eingangsvariablen an zu- 
geordneten Eingangen des Schaltwerks zum Zeitpunkt t n bilden 
und wobei Mittel zum Speichern der Ausgangsvariablen des 

30 Schaltwerks zwischen den Zeitpunkten t n -i und t n vorgesehen 

sind. Dabei brauchen nicht alle Eingange von (gespeicherten) 
Ausgangen belegt zu sein; sondern es konnen auch freie Ein- 
gange existieren. Aufterdem konnen auch Ausgange vorhanden 
sein, die nicht durchgekoppelt sind, also beispielsweise nur 

35 ein Endergebnis darstellen, das nicht wieder verwendet wird. 

Mit den Zeitpunkten t n _! und t n sind direkt aufeinander fol- 
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gende Auswertungen der Schalt f unktion bezeichnet. In einer 
technisch gunstigen Realisierung konnen diese Zeitpunkte von 
einem eingepragten Takt mit einer Taktdauer T abgeleitet wer- 
den, so dass t n - t n -i = k-T mit k=l,2,3,... gilt. Fur eine 
5 gegebene Anwendung ist hierbei k konstant, fur verschiedene 
Anwendungen kann es unterschiedlich gewahlt werden. 

Nachdem feststeht, dass die Komplexitat der Schalt f unktion 
exponentiell mit der Anzahl der Eingabevariablen und linear 

10 mit der Anzahl der Ausgabevariablen bzw. der Anzahl der Zel- 
len im Feld der abzubildenden GCAs steigt und der Aufwand fur 
die Kommunikation der GCAs untereinander zumindest quadra- 
tisch mit der Anzahl der Zellen ansteigt, ist die erfindungs- 
gemafte (re-) konf igurierbare Architektur zur Aufnahme von GCAs 

15 geeignet. Hierzu besteht sie aus wenigstens einem einzelnen 
konf igurierbaren Schaltwerk, dessen Ausgangsvariablen zum 
Zeitpunkt t n -i die Eingangsvariablen des Schaltwerks zum Zeit- 
punkt t n bilden. Zwischen den Zeitpunkten t n -i und t n werden 
die Ausgange des Schaltwerks in einem Speicher wie insbeson- 

20 dere in Registern gespeichert, so dass ein komplexes Schalt- 
werk bzw. eine FSM entsteht. Dabei stellen die einzelnen Stu- 
fen in der Gliederung ebenfalls Schaltwerke dar; nur die Kon- 
figuration liegt in einzelnen Schaltnetzen einer jeden Stufe, 
wobei jede Stufe aus einem konf igurierbaren Schaltnetz und 

25 Speicherelementen besteht. 

Bei der erf indungsgemaften Architektur sind demnach Schaltnet- 
ze als Boolesche Schalt funktionseinheiten vorhanden, deren- 
jeweiliger Ausgang von aktuellen Werten am Eingang der Archi- 

30 tektur abhangt, wahrend unter dem wenigstens einen Schaltwerk 
eine Boolesche Schaltf unktionseinheit zu verstehen ist, deren 
Ausgang von aktuellen Werten am Eingang zu dieser und endlich 
vielen vorangegangenen Zeitpunkten abhangt . Schaltwerke wer- 
den demnach aus Schaltnetzen und zumeist taktf lankengesteuer- 

35 ten Speicherelementen zusammengesetzt . 
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Vorteilhafte Ausgestaltungen der erf indungsgemaften Architek- 
tur gehen aus den von Anspruch 1 abhangigen Anspriichen her- 
vor. Dabei kann die Ausf uhrungsf orm nach Anspruch 1 mit den 
Merkmalen eines der Unteranspruche oder vorzugsweise auch de- 
5 nen aus mehreren Unteranspruchen kombiniert werden. DemgemaB 
kann die Architektur noch f olgendermaflen ausgebildet sein: 
Als Speichermittel konnen Registerspeicherelemente vorge- 
sehen sein, wobei es sich hier im Allgemeinen um taktflan- 
kengesteuerte Flipf lop-Elemente handelt . 
10 - Bevorzugt ist das Schaltwerk dreistufig ausgebildet, wobei 
die drei Stufen hintereinander geschaltet sind. Dabei 
dient die zwischen def Stufe mit den Eingangen und der 
Stufe mit den Ausgangen angeordnete zweite Stufe mit Spei- 
cherelementen zur Verarbeitung von in der ersten Stufe er- 
15 zeugten Daten und zur Weiterleitung von verarbeiteten Da- 

ten an die dritte Stufe* 

Dabei kann vorteilhaft eine erste Stufe mehrere parallel- 
geschaltete Speicherelemente enthalten, die uber Eingabe- 
leitungen adressierbar sind, wobei jedem Speicherelement 

20 eine Teilmenge der in einem zugehorenden, ermittelten 

Implikanten gebundenen Eingabevariablen zuzufuhren sind, 
der ersten Stufe eine zweite Stufe mit Speicherelementen 
nachgeordnet sein, die durch Kennungen der einzelnen 
Implikanten zu adressieren sind, 

25 und 

der zweiten Stufe eine dritte Stufe mit Mitteln zu einer 
disjunktiven Verknupfung der Ausgabewerte der einzelnen 
Implikanten aus den Speicherelementen der zweiten Stufe 
nachgeordnet sein . 
30 - Dabei lassen sich die einzelnen Implikanten bevorzugt 
durch Minimierungsverf ahren ermitteln. 

Ferner kann die erste Stufe mit der zweiten Stufe uber we- 
nigstens einen Crossbar-Switch miteinander verknupft sein, 
Als Speicherelemente konnen vorteilhaft CAMs und/oder RAMs 
35 vorgesehen sein. 

Besonders vorteilhaft ist wenigstens ein CGA zu integrie- 
ren . 
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Als Speicherelemente konnen magnetoresistive Bauelemente, 
insbesondere vom TMR-Typ, vorgesehen sein. Entsprechende 
tunnelmagnetoresistive Elemente sind an sich bekannt . 

5 Dabei sei unter einem Speicherelement der Architektur jedes 
interne Element verstanden, das im Allgemeinen aus wenigen 
Transistoren oder vergleichbaren Bausteinen sowie aus den ei- 
gentlichen, die Speicherf unktion ermoglichenden Elementen wie 
z.B. den erwahnten magnetoresistiven Elementen (pro Spei- 
10 chereinheit) zusammengesetzt ist. 

Den vorstehend angegebenen weiteren Ausgestaltungen der er- 
f indungsgemafien Architektur liegen insbesondere die nachfol- 
gend dargelegten Uberlegungen zu Grunde : 

15 

Die Komplexitat einer Schaltf unktion in dem gewahlten Schalt- 
werk steigt zwar linear mit der Anzahl der Ausgabevariablen 
an, jedoch entfallt samtlicher Aufwand fur die Kommunikation 
der Zellen untereinander. In eine solche Schaltf unktion kon- 

20 nen viele einzelne Automaten mit wenigen Ausgabevariablen ab- 
gebildet werden, oder wenige GCAs mit vielen Ausgabevariablen 
oder auch eine Mischung verschiedener Zellen. Damit ist keine 
Granularitat vorgegeben, und die Kommunikation der FSMs un- 
tereinander ist prinzipiell vollstandig moglich. Eine Grenze 

25 ist jedoch durch die maximale Komplexitat der Schaltf unktion 
gesetzt, die das Schaltnetz aufnehmen kann . 

Die Benutzung eines' Schaltwerks mit einer grofien Anzahl von 
Eingangen - dies wird im allgemeinen Fall entstehen, wenn ein 

30 GCA mit einer Anzahl von FSMs abgebildet wird - bedeutet, 
dass wiederum eine Art exponentielle Abhangigkeit des Fla- 
chenbedarfs von der Anzahl der Eingange entstehen kann. Als 
obere Grenze gilt ein Wachstum der Flache mit exp (Anzahl Zu- 
stande) , wenn jeder Zustand in einem Bit codiert wird; im 

35 allgemeinen Fall wird der Flachenbedarf geringer sein. Da ei- 
ne universelle Schaltung jedoch den Maximalfall beinhalten 
muss, ware das exponentielle Wachstumsgesetz anzuwenden. 
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Hier ist es als besonders vorteilhaft anzusehen, die Schal- 
tung, die das Schaltwerk aufnimmt, in drei spezielle Ab- 
schnitte/Stuf en einzuteilen. Dazu wird nachstehend eine 
5 (re) konf igurierbare Schaltung dargestellt, die Schalt f unktio- 
nen mit einer grofien Zahl von Eingangsvariablen und einer 
grofien Zahl von Ausgangsvariablen als Schaltwerk realisieren 
kann. 

10 Urn ein rekonf igurierbares Schaltwerk fur Schaltf unktionen zu 
entwerfen, werden als Ausgangsuberlegung zwei Moglichkeiten 
betrachtet : 

Zum einen ist es moglich, eine Schalt funktion komplett in 
15 einem RAM-Speicher abzulegen. Die Eingabevariablen der 

Schaltf unktion bilden die Adressbits und adressieren fur 
jede mogliche Kombinat ion von Eingabevariablen eine Spei- 
cherzelle. Der Inhalt dieser Speicherzelle entspricht 
dann dem Wert der Schalt funktion, die Datenleitungen des 
20 Speicherelements bilden die Ausgabevariablen der Funkti- 

on. Der Vorteil dieses Konzepts liegt im einfachen Aufbau. 
der Schaltung, der einfachen Rekonf igurierbarkeit, der 
hohen Integrationsdichte von Speicherelementen und der 
festen Zeitdauer, die die Auswertung der Schaltf unktion 
25 benotigt. Allerdings steigt die Anzahl der benotigten 

Speicherzellen, also die Grofte des benotigten Speicher- 
elementes exponentiell mit der Anzahl der Eingabevariab- 
len an* Aus diesem Grunde konnen nur kleine Schalt f unkti- 
onen auf diese Weise abgebildet werden. 

30 

Dies ist Stand der Technik in PLDs und wird als Look-Up- 
Table-Struktur bei FPGAs eingesetzt, meist mit 4 binar- 
wertigen Eingangsvariablen und 1 binarwert igen Ausgang. 

35 Eine zweite Moglichkeit, Schaltf unktionen in ein Schalt- 

netz abzubilden, besteht darin, Gatter in einem 2- oder 
mehrstufigen Netz konf igurierbar anzuordnen. Damit ist es 
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15 
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moglich, Schalt f unktion mit einem minimalen Verbrauch von 
Gattern in Schaltnetze abzubilden. Die Schaltkreistheorie 
stellt hier gunstige Darstellungsf ormen von Schaltf unkti- 
onen wie z.B. die Reed-Muller-Form, oder auch leistungs- 
fahige Algorithmen zur Logikminimierung bereit . Der Vor- 
teil dieses Ansatzes besteht im minimalen Verbrauch von 
Gattern und in der Moglichkeit, leistungsf ahige Verfahren 
und Algorithmen zur Minimierung zu nutzen (vgl. Litera- 
turzitate [2] und [3]). Dieses Verfahren kann gut zur 
Darstellung einer festen Schaltf unktion z.B. der Reali- 
sierung eines ROMs genutzt werden. Uber Hardwarebausteine 
wie z.B. Crossbar-Switches konnen die einzelnen Gatter 
rekonf igurierbar verschaltet werden, jedoch steigt hier 
der Aufwand fur die Rekonf igurierbarkeit exponentiell mit 
der Anzahl der Eingabevariablen der Schalt f unktion an. 



5 Erlauterung der Erfindung anhand eines konkreten Ausfuh- 
rungsbei spiels 

20 Um die Vorteile der ersten Moglichkeit, die hohe Integrier- 
barkeit, die Rekonf igurierbarkeit und die,., Einf achheit der 
Schaltung, und die Vorteile der 2. Variante, den geringen 
Verbrauch von Gatterf unktionen und die Anwendbarkeit moderner 
Verfahren, verbinden zu konnen, ist erf indungsgemaB folgender 

25 Ansatz vorgesehen: 

Die Grundidee der angenommenen Ausf uhrungsf orm ist die Ent- 
wicklung eines rekonf igurierbaren Schaltwerks, welches soviel 
logische Funktionalitat wie moglich in RAM-Bausteinen dar- 
30 stellt, um den Vorteil der hohen Integrationsdichte zu nut- 
zen. Diese RAM-Bausteine sollen in einer mehrstufigen Schal- 
tung rekonf igurierbar miteinander verbunden werden, um nicht 
komplette Schalt f unktionen speichern zu mussen. 

35 1. Stufe: 

Die Eingabevariablen der Schaltf unktion werden durch die Ein- 
gabeleitungen des Schaltnetzes reprasentiert . Die erste Stufe 
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der Schaltung besteht aus mehreren parallel geschalteten 
Speicherelementen, die durch die Eingabeleitungen adressiert 
werden. Jedem Speicherelement ist dabei eine Teilmenge der 
Eingabeleitungen und damit der Eingabevariablen der Schalt- 
5 funktion zugeordnet. Die durch Minimierungsver f ahren ermit- 
telten Implikanten einer Schaltf unktion (minimierte zi aus 
Gl. (2) bzw. deren Stringterm-Darstellung) werden in Spei- 
cherelementen der Eingangsstuf e abgespeichert . Dazu werden in 
jedem Speicherelement, dem im Implikanten gebundene Eingabe- 

10 variablen zugeordnet sind, die Belegung der Eingabevariablen 
im Implikanten und eine eindeutige Kennung zu diesem Impli- 
kanten abgespeichert- Da jedem Baustein nur ein Teil der Ein- 
gabevariablen zugeordnet sind, wird auch nur jeweils ein 
Teilimplikant gespeichert. In Speicherelementen, denen keine 

15 im Implikanten gebundenen Variablen zugeordnet sind, wird 

entsprechend kein Teil des Implikanten gespeichert. Liegt an 
den Eingabeleitungen des Schaltnetzes eine Bitkombinat ion an, 
so geben alle Speicherelemente, die zur Bitkombination pas- 
sende Teilimplikanten enthalten, deren Kennungen uber die Da- 

20 tenleitungen an die 2. Stufe der Schaltung weiter. 

2. Stufe: 

Die Kennungen der (Teil-) Implikanten adressieren einen Spei- 
cher in einer zweiten Stufe. In diesem Speicher sind die zum 

25 jeweiligen Implikanten gehorigen Bitmuster der Kennungen und 
die Ausgabewerte der Schaltf unktion gespeichert. Entspricht 
das Bitmuster an Kennungen, die von der ersten Stufe gelie- 
fert werden, dem eines gespeicherten Implikanten, so liegt 
dieser Implikant an den Eingangsleitungen der Schaltung an. 

30 Die 2. Stufe der Schaltung leitet dann die Ausgabewerte aller 
Implikanten, die an den Eingabeleitungen anliegen, uber die 
Datenleitungen an die 3. Stufe weiter. 

3. Stufe: 

35 In der 3. Stufe werden die Ausgabewerte der einzelnen Impli- 
kanten disjunktiv (OR) verknupft und bilden so das Ergebnis 
der Schaltfunktion . 
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Die Erfindung wird nachfolgend unter Bezugnahme auf die 
Zeichnung anhand eines konkreten Ausf uhrungsbeispieles unter 
5 Berucksichtigung der vorstehenden Uberlegungen noch weiter 
erlautert. Die Zeichnung umfasst folgende Telle, wobei deren 
Figuren 1 bis 3 zum Stand der Technik unter Abschnitt 2 be- 
reits angesprochen wurden: 

10 Figur 1 zeigt den prinzipiellen Aufbau einer Von-Neumann- 
Architektur gemaB dem Stand der Technik, 
Figur 2 zeigt die generelle Struktur eines PLD gemaB dem 
Stand der Technik, 

Figur 3 zeigt den prinzipiellen Aufbau einer FSM in Form ei- 
15 nes Mealy-Automaten gemafi dem Stand der Technik, 

Figur 4 zeigt ein Ausf uhrungsbeispiel eines Speicheraufbaus 

einer erf indungsgemaften Architektur, 
Figur 5 zeigt die Abbildung von Springtermen auf RAM, wobei 
Teilfigur a) partielle Springterme, Teilfigur b) die 
20 Abbildung auf ein Tag-RAM und Teilfigur c) die Abbil- 

dung auf ein konventionelles RAM veranschaulichen, 
Figur 6 zeigt die Abbildung des Ergebnisses der Stufe 1 einer 
erf indungsgemaflen Architektur auf eine RAM- 
Kombination in Stufe 2, 
25 Figur 7 zeigt eine endgultige Architektur fur das Beispiel 
[(0,1) 12 -> (0, 1) l2 -Funktion] , 
Figur 8 zeigt eine erf indungsgemafte Architektur fur ein 

Schaltwerk mit groftem Schaltnetz zur Aufnahme eines 
GCA 

30 und 

Figur 9 eine erf indungsgemafte rekonf igurierbare Architektur 
zur Aufnahme von CGAs - 

Dabei sind in den Figuren sich ent sprechende Telle jeweils 
35 mit denselben Bezugszeichen versehen. 

Fur das Ausf uhrungsbeispiel gemafi den Figuren 4 bis 9 sei ei- 
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ne erf indungsgemafie Architektur mit drei Stufen, wie vorste- 
hend angesprochen, angesetzt, und zwar fur eine Schalt f unkti- 
on mit 12 Eingabevariablen, 10 Implikanten und 8 Ausgabevari- 
ablen: Tabelle 1 zeigt hierfur alle Implikanten (auch als 
5 ,Minterme* bezeichnet) fur eine Beispielf unktion an. Die Dar- 
stellung der Stringterme ist so gewahlt, dass hierbei drei 
Vierergruppen ent st ehen • 



Tabelle 1: Beispiel fur eine Implikantentabelle, dargestellt 
10 durch Stringterme 
Implikanten : 

1. 0-11 1100 6. 0100 11 — 0000 

2. 1101 11 — 0000 7. 0001 0000 

3. -0-1 0001 8. 0001 

15 4, 10 9. 0000 

5. 0100 0001 10. -0-1 0001 1100 



Betrachtet man nun diese Tabelle spaltenweise, wird man fest- 
stellen, dass nur wenige verschiedene Kombinationen in den 
20 Stringtermen vorkommen. Bei einer zweiwertigen Darstellung 

konnte es fur jede Spalte hier 24. = 16 verschiedene Kombina- 
tionen geben, bei dreiwertiger entsprechend 34 = 81. In dem 
Beispiel kommen hiervon nur 5, 3 und 4 fur die Spalten 1-3 
vor, wobei eine Eingangskombination jeweils komplett ' -' ist. 

25 

Liegt am Eingang eine Bitkombinat ion als Parameter der 
Schaltfunktion an, so liefert ein Speicherelement , welches 
einen Teilimplikanten mit der anliegenden Bitkombination 
speichert, die Kennung des zugehorigen Implikanten zuruck. 

30 Dieses Speicherelement der ersten Stufe ist in Figur 4 als 3- 
wertiges CAM ausgefuhrt, d.h., die Eingangsvektoren, die real 
als zweiwertige Information an dem Adressbus anliegt, wird 
mit gespeicherter dreiwertigen Inf ormationen verglichen. Als 
Ausgabe wird eine zu dem Treffer gespeicherte Kennung, eben- 

35 falls dreiwertig, ausgegeben. 

Alle Kennungen zusammen bilden die Kennung der Implikanten- 
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kombination, die am Eingang des Schaltnetzes anliegt. Diese 
Implikantenkombination kann dabei durchaus mehrere Implikan- 
ten umfassen. So konnen im dargestellten Beispiel z.B. die 
Implikanten 3, 4 und 8 oder die Kombination der Implikanten 
5 4, 5 und 8 anliegen. Im ersten Fall liegt die Bitkombination 
100001 an der 2. Stufe an, im zweiten Fall die Kombination 
110001. 

Die Kennung der Implikantenkombinationen wird in der 2. Stufe 
10 der Schaltung erkannt und liefert fur jeden beteiligten 

Implikanten den zugehorigen Ausgabewert der Schalt f unktion . 
Diese zweite Stufe besteht nun aus einem dreiwertigen RAM, 
d.h., am die Adressbusinf ormationen dieser Stufe sind drei- 
wertig, die gespeicherten Daten allerdings zweiwertig. 

15 

In der 3. Stufe der Schaltung werden die Ausgabewerte der an- 
liegenden Implikanten disjunktiv verknupft und bilden zusam- 
men den Funktionswert der Schalt f unktion • 

20 5.1 Speicherelemente Stufe 1 

Als Speicherelement zum Aufnehmen der Teilimplikanten kann - 
wie schon erwahnt - ein sehr spezieller Baustein bzw. eine 
sehr spezielle Architektur zum Einsatz kommen, hier mit drei- 
25 wertigem CAM gemaB Figur 4 bezeichnet . Hierbei muss prinzi- 

piell noch das Problem der Mehrf achubereinstimmung diskutiert 
werden, was aber im Zusammenhang mit anderen Realisierungs- 
moglichkeiten erfolgen soli. 

30 Moglich als Einsatz fur die Stufe 1 ist auch ein vollassozia- 
tiver Cache. Hier konnen die Teilimplikanten als sogenannter 
Tag gespeichert werden, das gecachte Datum dient als Kennung 
des erkannten Implikanten. Enthalt jedoch ein Teilimplikant 
ungebundene Variablen, die beim Vergleich mit anliegenden 

35 Bitkombinationen als Don ■ t-Care (DC) -Stellen zum Ausdruck kom- 
men, so muss fur alle Belegungen dieses Implikanten, die den 
Vergleich mit DC erfullen, ein Tag im Tag-RAM angelegt wer- 
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den. Weiterhin ergeben sich durch den Vergleich mit DC 
Uberschneidungen von Teilimplikanten . So gehort z.B. die Bit- 
kombination 0011 im ersten Teilimplikantenspeicher des obigen 
Beispiels sowohl zum Implikanten 1 als auch zum Implikanten 
5 3. Es sind also nicht nur Kombinationen von Implikanten mog- 
lich, sondern auch Kombinationen von Teilimplikanten. 

Aus diesem Grunde werden zu einer Realisierung als Teilimpli- 
kantenspeicher normale, d.h. zweiwertige RAM-Bausteine bzw. - 

10 Architekturen verwendet. Jedes dieser RAMs wird durch einen 
Teil der Eingangsleitungen des Schaltnetzes adressiert. An 
den Adressen, deren Bitkombination jeweils demselben Tei- 
limplikanten mit DC-Stellen entsprechen (jede DC-Stelle in 
einem Stringterm bedeutet, dass die Anzahl der zutreffenden 

15 Stellen bei binarer Codierung um den Faktor 2 erhoht wird) , 
wird jeweils die gleiche Kennung im Speicher abgelegt . 1st 
die Ausgangsbreite des verwendeten RAMs groBer als die zur 
Darstellung der Kennungen notwendige Bitbreite, so konnen die 
weiteren Bits als Kontextwert genutzt werden. Dieser Kontext 

20 kann z.B. eine ungultige Belegung der Eingangsvariablen der 
Schaltf unktion anzeigen . 

Da ein normales RAM keine Statusanzeige fur ein nicht vorhan- 
denes Datum wie z.B. ein Tag-RAM mit seinem Cache-Miss- 
25 Ausgang besitzt, muss eine Bitkombination auf denjenigen Da- 
tenleitungen, die an die 2. Stufe zum Vergleich der Bitkombi- 
nationen verwendet werden, als Kennzeichnung fur keinen an- 
liegenden Teilimplikanten verwendet werden. In Figur 5 c)' ist 
dies durch die Kennung 8 gegeben. 

30 

5.2 Speicherelemente Stufe 2 

Ebenso wie im bei den RAMs der ersten Stufe zum Speichern der 
Teilimplikanten mussen auch beim Vergleich der Implikanten- 
35 kombinationen in der 2. Stufe der Schaltung DCs berucksich- 
tigt werden. Deshalb wird auch hier ein normales RAM verwen- 
det. Dieses RAM wird mit der Kennung der Implikantenkombina- 
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tion adressiert. 

Da wieder mehrere Adressen derselben Implikantenkombination 
entsprechen konnen, muss der Speicher der zweiten Stufe auf- 
5 geteilt werden: die Bitkombinat ionen der ersten Stufe adres- 
sieren ein RAM der zweiten Stufe. Dort ist fur jede gultige 
Implikantenkombination ein Index abgelegt, der wiederum ein 
RAM adressiert, welches seinerseits die Ausgabevariablen der 
beteiligten Implikanten enthalt . So konnen die verschiedenen 
10 Adressen, die sich durch die Implikantenkombination mit 

Don 1 t-Care-Stellen ergeben, auf denselben Index der Ausgabe- 
werte der Schaltf unktion abgebildet werden. 

Figur 6 zeigt eine entsprechende Abbildung des Ergebnisses 
15 der Stufe 1 auf eine RAM-Kombination in Stufe 2. 

5.3 Endgultige Architektur gemafl Figur 7 

Da ein RAM nur einen einzigen Index liefern kann, mussen in 
20 einer 1. Stufe eines Schaltwerks im Speicher der Ausgabewerte 
die disjunktiv verknupften Ausgabewerte aller an der erkann- 
ten Kombination beteiligten Implikanten aufgenommen werden. 
Damit muss das Ausgabe-RAM in dieser Stufe alle moglichen 
Funktionswerte der Schaltf unktion speichern konnen. Da die 
25 Anzahl der moglichen Funktionswerte exponentiell mit der An- 
zahl der Ausgabevariablen einer Schaltf unktion ansteigt, wer- 
den mehrere Kombinations- und Ausgabe-Speicher der 2. Stufe 
des Schaltwerks parallel verwendet und' deren Ausgabekombina- 
tionen disjunktiv verknupft. Damit konnen alle Funktionswerte 
30 einer Schaltf unktion erzeugt werden. 

Urn die Kapazitat der einzelnen Kombinationsspeicher besser 
ausnutzen zu konnen, werden alle Datenleitungen der Implikan- 
tenspeicher mit alien Adressleitungen der Kombinat ionsspei- 
35 cher uber einen Crossbar-Switch verbunden. Damit konnen be- 

liebige Datenleitungen die Adressierung der Kombinations-RAMs 
ubernehmen. Nicht verwendete Datenleitungen konnen uber den 



20 



WO 2005/078599 



PCT/EP2005/050500 



Crossbar-Switch als Kontext-Inf ormation weitergeleitet wer- 
den . 



In einem letzten Schritt wird in einer 3. Stufe des Schalt- 
5 werks der erzeugte Ausgabewert bitweise uber die Exklusiv- 

Oder-Funktion mit einem Register inhalt verknilpft, um einzelne 
Ausgabevariablen invertieren zu konnen und so ggf. kleinere 
Logikminimierungen zu erhalten. Damit besteht die 3. Stufe 
der Schaltung aus der disjunktiven Verknupfung der Ausgabe- 
10 kombinationen und der anschliefienden moglichen Invertierung 
einzelner Ausgabebits. 

Insgesamt ergibt sich das Prinzipschaltbild der Figur 7 fur 
ein erf indungsgemafles Schaltwerk. 

15 

5,4 Diskussion der Architektur 



Die Intention der Erfindung ist es, sowohl eine RAM-basierte 
Architektur zur Implement ierung grower Schaltnetze als auch - 

20 gewissermaBen als Anwendung zur Aufnahme einer universellen 
Maschine - diese Architektur zur,Aufnahme von GCAs anzubie- 
ten. Zur Aufnahme einer beliebigen Funktion im RAM muss der 
Speicherplatz in dem Speicher exponentiell mit der Anzahl der 
Eingange (und linear mit der Anzahl der Ausgange) wachsen. Im 

25 Fall des obigen Beispiels bedeutet dies, dass eine beliebige 
Funktion mit 12 Ein- und 12 Ausgangen einen Speicherbedarf 
von 4096 * 12 bit entsprechend 6144 Bytes hatte. Bei 32 Ein- 
gangen und 8 Ausgangen waren dies bereits 4 GByte an Spei- 
cherkapazitat . 

30 

Die vorgeschlagene Architektur eines mehrstufigen Netzwerks 
beinhaltet lediglich 211,5 Bytes RAM, namlich: 



3x Implikanten-RAM 16x4 24 Bytes 

35 3x Kombinations-RAM 64x4 96 Bytes 

3x Ausgabe-RAM 16x12 72 Bytes 

Crossbar-Switch-Konf iguration 18 Bytes 
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Invertierung 12x1 1, 5 Bytes 

Summe 211,5 Bytes 

Damit liegt der wesentliche Vorteil darin, class diese Archi- 
5 tektur erheblich platzsparender ist als eine LUT-basierte Ar- 
chitektur. Hierbei ist zu berucksichtigen, dass nicht jede 
Funktion auf diese Weise darstellbar ist. 

Um eine Applikation in diese Architektur abbilden zu konnen, 
10 mussen mehrere notwendige Bedingungen erfiillt sein. Die erste 
Bedingung ist diejenige, dass die Anzahl der verschiedenen 
Teil-Stringterme, die in einer Spalte vorhanden sind, auf die 
RAMs der ersten Stufe abgebildet werden konnen. Dies ist au- 
tomatisch dadurch erfiillt, dass diese RAMs alle Kombinationen 
15 aufnehmen (well sie CAMs emulieren) , lediglich die Eingangs- 
breite der Schaltung muss fur Applikation ausreichen. 

Die zweite Bedingung schlieftt sich hier an: Die Anzahl der 
verschiedenen Teil-Stringtermkombinat ionen, die in der Appli- 

20 kation nach Minimierung enthalten sind, muss codierbar sein. 
Dies bedeutet, dass eine Anzahl von Speicherstellen zur Veir- 
fugung stehen muss. Zur Ef f izienzabschatzung sei m die Ein- 
gangsbreite des Schaltnet zes . Dies wurde bedeuten, dass 2m 
Speicherzellen benotigt wiirden, um die komplette Funktion 

25 darzustellen . 

Wenn k nun die Parallelitat der Bausteine (Anzahl der Bau- 
steine) und 2s die Kapazitat eines Bausteins ist, so muss ■ fur 
eine effizientere Speicherung der Applikation die Ungleichung 
30 k * s < m-1 (3) 

gelten. Je deutlicher die Unterschreitung ausfallt, desto ef- 
fizienter war die Implementierung . 

Bedingung 3 bedeutet, dass die Ausgangsbreite geeignet ge- 
35 wahlt sein muss. 

6 Abbildung von GCAs auf die Architektur 
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Zur Abbildung von GCAs auf die erfindungsgemafie Architektur 
mussen noch Speicherelemente eingefuhrt werden, die takt- 
gesteuert das Fortschreiten in der Rechnung speichern. Dies 
5 hat seine Ursache darin, dass GCAs als Array von FSMs defi- 
niert sind, und diese sind in der Regel synchronisiert . Hier 
ist angenommen, dass ein globaler Takt zur Synchronisation 
genommen wird. Alle Implementierungen von nicht-globalen, 
insbesondere nicht in gegenseitiger Beziehung stehenden Tak- 
10 ten wurden zu wesentlichen Problemen fuhren, sind jedoch in 
der Praxis selten anzutreffen. 



Figur 8 zeigt ein weiteres Beispiel fur eine konf igurierbare 
Architektur der vorgeschlagenen Art, nunmehr ausgestattet mit 

15 Registern zur Speicherung von Zustanden. Zusatzlich ist ein 

weiterer Crossbar-Switch eingefugt, der an dieser Stelle u.a. 
dazu dient, Ein- und Ausgabeschnitt stellen fur den Rechner 
bereitzustellen. Dies ist zwar fur das grundlegende Verstand- 
nis der Architektur unerheblich, im praktischen Betrieb je- 

20 doch notwendig, weil ein Rechner mit Aufienanschliissen verse- 
hen sein muss. 



25 



Der Speicherbedarf dieser beispielhaf ten Architektur berech- 
net sich zu 



8x minterm-RAM 256x8 2 KBytes 

8x combination-RAM 64Kx8 512 KBytes 

8x output -vector-RAM 256x64 16 KBytes 

2xCrossbar-Switch configuration 1 KBytes 

3 0 Inverting register 64x1 8 Bytes 

Sum 531 KBytes 



Damit ist verdeutlich, wie gering die Speicheranf orderungen 
sind; ein RAM mit 264 * 64 bit (-267 Bytes) ist jedenfalls 
35 nicht in der Herstellung moglich. Sollten bei einer Applika- 
tion auf dieser Architektur Leitungen von den RAMs der ersten 
Stufe ungenutzt bleiben, konnen diese als Kontextinf ormatio- 
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nen genutzt werden. Eine Anwendung besteht dabei in der Kon- 
textumschaltung, die fur die RAMs der zweiten Stufe zusatz- 
lich moglich sein konnte. Werden also beispielsweise bei ei- 
nem RAM nur 14 Adressbits benotigt, dann konnen die Informa- 
5 tionen fur diese 14 bit viermal gespeichert werden, also in 
vier verschiedenen Kontexten stehen. 

Aus Figur 9 ist der prinzipielle Aufbau einer rekonf igurier- 
baren Architektur nach der Erfindung zu entnehmen, wie sie 
10 zur Aufnahme von CGAs geeignet ist. Dieser Aufbau stellt eine 
Verallgemeinerung des Aufbaus nach Figur 8 dar . Insbesondere 
sind die RAM-Stufen 1 und 2 durch gestrichelte Linien ver- 
deutlicht . 
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Patentanspruche 

1. Rekonf igurierbare Architektur einer Rechnereinrichtung mit 
wenigstens einem einzeln konf igurierbaren und/oder rekonfigu- 

5 rierbaren Schaltwerk, das eine Stufe mit Eingangen und eine 
Stufe mit Ausgangen aufweist, wobei Ausgangsvariable zumin- 
dest einiger der Ausgange zu einem Zeitpunkt t n _i die Ein- 
gangsvariablen an zugeordneten Eingangen des Schaltwerks zu 
einem Zeitpunkt t n bilden und wobei Mittel zu einem taktge- 
10 steuerten Speichern der Ausgangsvariablen des Schaltwerks 
zwischen den Zeitpunkten t n -i und t n vorgesehen sind. 

2. Architektur nach Anspruch 1, dadurch gekennzeichnet, dass 
die Speichermittel Registerspeicherelemente sind. 

15 

3- Architektur nach Anspruch 1 Oder 2, gekennzeichnet durch 
eine dreistufige Ausbildung des Schaltwerks mit einer Hinter- 
einanderschaltung dreier Stufen. 

20 4. Architektur nach Anspruch 3, gekennzeichnet 

durch^eine erste Stufe aus mehreren parallel geschalteten 
Speicherelementen, die uber Eingabeleitungen adressierbar 
sind, wobei jedem Speicherelement eine Teilmenge der in 
einem zugehorenden, ermittelten Implikanten gebundenen 

2 5 Eingabevariablen zuzufiihren sind, 

durch eine der ersten Stufe nachgeordnete zweite Stufe mit 
Speicherelementen, die durch die Kennungen der einzelnen 
Implikanten zu adressieren sind, 
und 

30 - durch eine der zweiten Stufe nachgeordnete dritte Stufe 

mit Mitteln zu einer disjuktiven Verknupfung der Ausgabe- 
werte der einzelnen Implikanten aus den Speicherelementen 
der zweiten Stufe. 

35 5. Architektur nach Anspruch 4, gekennzeichnet durch eine Er- 
mittlung der Implikanten durch Minimierungsverf ahren . 
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6. Architektur nach Anspruch 4 oder 5, dadurch gekennzeich- 
net, dass die erste Stufe mit der zweiten Stufe uber wenigs- 
tens einen Crossbar-Switch miteinander verknupft ist. 

5 7. Architektur nach einem der vorangehenden Anspruche, ge- 
kennzeichnet durch CAMs- und/oder RAMs als Speicherelemente . 

8. Architektur nach einem der vorangehenden Anspruche, ge- 
kennzeichnet durch eine Integration wenigstens eines CGAs . 

10 

9. Architektur nach einem der vorangehenden Anspruche, ge- 
kennzeichnet durch magnetoresistive Speicherelemente, insbe- 
sondere vom TMR-Typ. 
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FIG 5a 



FIG 5b 



FIG 5c 
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FIG 6 
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FIG 8 
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